China £f se 


$8 63 35 $8 24 期 2019 年 12 月 


网 络 椰 木 又 档 细 粒度 聚合 本 体 构 建 研究 


EZ% pg 
! 中 山大 学 图 书馆 广州 510275 “中 山大 学 资讯 管理 学 院 J-9| 510006 


摘要 : [ 目的 /意义 ] 旨 在 探索 网 络 学 术 文 档 细 粒度 聚合 本 体 构建 的 理论 和 方法 。 [ 方法 /过程 ] 在 梳理 相关 
理论 与 方法 的 基础 上 ,首先 明晰 细 粒 度 聚合 本 体 概念 的 基本 类 型 .粒度 特征 和 定义 等 基本 理论 问题 ,然后 以 网 
络 环境 下 图 书 情报 学 领域 “引文 分 析 ” 主 题 语 料 为 数据 来 源 ,从 概念 .属性 和 关系 、 实 例 等 方面 对 细 粒 度 聚 合 单 
元 本 体 构建 进行 逐一 探讨 ,并 对 本 体 进 行 评估 和 讨论 。[ 结果 /结论 ] 首次 提出 基于 聚合 单元 知识 体系 构建 细 粒 
度 聚合 本 体 的 思路 与 方法 ,可 为 基于 聚合 单元 的 细 粒 度 组 织 、 检 索 和 导航 中 知识 组 织 系统 工具 的 构建 提供 参 
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念 ,关系 以 及 概念 之 间 的 推理 规则 进行 形式 化 定义 ,使 


得 网 络 资源 能 通过 本 体 有 效 地 表达 出 机 器 能 够 识别 的 


当前 搜索 引擎 对 于 海量 网 络 资源 的 组 织 仍 以 网 语义 概念 ,为 细 粒 度 聚 合 单元 的 抽取 组 织 , 关 联 与 检 
站 < 殉 页 和 各 类 型 文件 载体 为 主要 的 控制 与 组 织 单元 ，” 索 匹配 提供 语义 基础 。 
但 退出 现 了 对 于 网 页 局 部 信息 单元 进行 搜索 和 定位 的 鉴于 此 ,本 文 旨 在 以 聚合 单元 概念 为 基础 探索 网 


项 盘 , 如 百度 搜索 引擎 对 于 百科 词 条 检索 结果 的 揭示 络 学 术 文档 细 粒 度 聚 合 本 休 构 建 的 理论 与 方法 。 聚合 
可 细 化 到 具体 知识 点 。 但 对 于 学 科 领 域 用 户 而 言 , 他 ”单元 作为 细 粒 度 聚 合 的 基本 对 象 , 是 指 以 细 粒 度 聚合 
位 对 于 网 络 文档 的 需求 往往 按照 搜索 任务 情景 的 不 同 。 作为 信息 组 织 和 检索 方式 时 系统 控制 和 处 理 的 基本 文 
而 嘲 散 于 不 同体 裁 类 型 。 因 此 ,我 们 仍然 面临 如 何 实 。 本 内 容 单元 ,是 按照 网 络 学 术 文 档 体裁 结 构 划 分 的 不 
现 允 类 型 网 络 学 术 文档 细 粒 度 聚 合 的 问题 , 即 如 何 让 同 层级 的 语言 功能 单元 的 统称 。 网 络 学 术 文 档 的 聚合 


网 络 信 息 系统 根据 用 户 明 确 表达 的 信息 需求 和 检索 情 。 ”单元 既 可 以 是 文档 整体 ,也 可 以 是 网 络 资源 的 局 部 ,如 
景 (如 :任务 、 用 户 偏好 等 ) 而 为 用 户 呈 现 经 过 筛选 . 抽 。 研究 论文 的 结论 /讨论 部 分 的 段落 单元 ,或 结论 /讨论 


取 和 序 化 的 多 类 型 网 络 资源 整体 或 局 部 ,通过 对 于 聚 。” ”部 分 中 的 “提出 后 续 研 究 建 议 ” 的 句 群 单元 。 
合 单元 类 型 ,粒度 ,关系 和 属性 等 方面 的 控制 ,来 更 灵 围绕 研究 目标 ,本 文 在 梳理 相关 理论 和 方法 的 基 
活 、 准 确 地 为 用 户 呈 现 所 需 的 目标 信息 ,满足 用 户 对 于 ，” 础 上 ,提出 细 粒 度 聚 合 本 体 的 理论 框架 ,通过 实证 研究 
网 络 学 术 资 源 的 需求 。 构建 细 粒 度 聚 合 本 体 ,并 进行 评估 和 讨论 。 

从 信息 组 织 的 角度 而 言 ,网 络 学 术 文 档 细 粒 度 聚 SEN 
A WAHL OR EISE BEA P ER IA GR EN 
建 领域 内 共同 认可 的 ` 反 映 网 络 学术 资 源 聚 合 中 多 类 知识 单元 理论 与 细 粒 度 聚 合 本 体 的 构建 相关 理论 


型 网 络 文档 内 信息 单元 的 层级 .类 型 及 其 与 用 户 需 求 密切 联系 但 又 有 区 别 :知识 单元 理论 为 面向 资源 载体 
关系 的 知识 组 织 系 统 ; 对 该 知识 组 织 系 统 中 的 知识 概 ”内 信息 单元 的 组 织 提 供 理论 依据 ,为 基于 知识 元 的 知 
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识 组 织 系 统 构建 提供 理论 与 方法 基础 。 然 而 ,由 于 知 
识 单元 理论 中 定义 的 知识 组 织 对 象 仅 为 包含 知识 单元 
的 信息 内 容 , 而 细 粒 度 聚 合 本 体 中 定义 的 知识 组 织 对 
象 是 按照 语言 功能 进行 定义 的 聚合 单元 ,聚合 单元 的 
组 织 不 仅 涉 及 知识 单元 组 织 的 问题 ,还 涉及 了 这 些 聚 
合 单元 的 语言 功能 带 来 的 语义 关系 及 其 与 用 户 搜寻 形 
成 的 关联 关系 ,因此 知识 元 理论 未 能 涵盖 细 粒 度 聚 合 
所 需 的 知识 组 织 系统 构建 的 全 部 问题 ,需要 结合 聚合 
元 构建 的 理论 基础 一 体裁 理论 与 方法 ,建立 聚合 
元 知识 体系 构建 的 理论 与 方法 基础 。 此 外 , 细 粒 度 
聚合 本 体 的 构建 离 不 开本 体 的 基本 理论 与 方法 。 因 
此 ,本 研究 梳理 知识 单元 相关 理论 .体裁 结构 规则 相关 
理论 与 本 体 构建 理论 ,从 而 构建 适应 细 粒 度 聚 合 本 体 
构建 需求 的 理论 框架 。 
2. 知识 单元 相关 理论 研究 
针对 文献 内 部 知识 单元 的 研究 曾 受到 各 学 科 领 域 
注 ,但 学 界 对 于 知识 单元 的 认识 尚未 统一 。 知 识 
元 概念 在 不 同时 期 和 不 同学 科 领 域 研究 中 的 定义 也 
答 下 相同 ,可 包括 “知识 基因 ”知识 概念 " “知识 节 
:知识 因子 "“ 知 识 点 "“ 知 识 元 " “知识 链接 ” 
知识 单元 "等 ,但 都 是 指 一 定单 元 内 具有 独立 售 义 的 
知 轴 内 容 , 既 可 以 是 文献 ,也 可 以 是 文献 的 局 部 片段 ， 
述 祁 以 是 文献 中 包含 的 概念 等 知识 要 点 中 。 对 于 知识 
完 的 研究 ,可 以 分 为 面向 知识 组 织 的 学 科 领 域 知识 
ADEWE, .面向 知识 抽取 与 利用 的 知识 单元 研究 和 教 
育 蜂 域 面向 课程 的 知识 元 组 织 研究 : 
qz» 面向 知识 组 织 的 学 科 领 域 知识 单元 研究 根 
据 坊 庭 孝 的 观点 ,知识 单元 按照 知识 组 织 的 发 展 阶段 
和 深入 程度 可 分 成 文献 单元 .信息 单元 和 知识 单元 等 
3 种 主要 的 形态 。 其 中 知识 单元 的 实践 与 研究 始 于 文 
献 单元 。 文 献 单 元 作为 天 然 的 \ 包 含 知识 的 载体 单元 ， 
自然 地 成 为 知识 管理 的 初始 单元 ,并 在 此 基础 上 逐渐 
形成 了 完善 的 知识 体系 。 因 而 ,文献 单元 作为 知识 单 
元 的 早期 形态 ,其 中 包含 着 知识 单元 ,而 知识 单元 最 终 
附着 在 一 定形 式 的 文献 单元 中 ,体现 为 文献 单元 "1。 
相关 研究 强调 知识 组 织 的 对 象 应 深入 至 文献 内 知 
识 单元 层 ,因而 弥补 了 既 有 知识 组 织 理论 对 文献 内 容 
反映 不 足 的 缺憾 ,但 对 于 如 何 划分 文献 内 部 的 知识 单 
元 的 粒度 和 层级 仍然 未 有 进一步 的 理论 和 方法 指引 ， 
因而 未 能 满足 细 粒 度 聚 合 知识 组 织 系统 对 于 聚合 单元 
划分 的 要 求 。 
2.1.2 面向 知识 抽取 与 利用 的 知识 单元 研究 MA 
奈 等 从 知识 组 织 的 角度 系统 地 提出 了 “知识 元 ”理论 : 
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“假定 文本 内 容 的 组 织 排列 是 由 一 个 个 独立 知识 元 素 
的 逻辑 排序 结构 ,这 种 独立 的 知识 元 素 称 为 知识 元 , 逻 
辑 依 存 关系 称 为 知识 链 。 知 识 元 是 构造 知识 结构 的 基 
元 。”“ 知 识 元 及 其 结构 组 成 不 同 的 知识 单元 。””。 知 
识 元 的 类 型 包括 :描述 型 (信息 报道 ,名词 解 释 、 数 值 、 
问题 描述 文献 引证 等 ) 和 过 程 型 (步骤 、 方 法、 定义 、 
原理 经验 等 ) 两 大 类 '”。 温 有 奎 等 对 于 知识 元 理论 及 
其 知识 组 织 方法 进行 了 系统 研究 ”” ,在 此 基础 上 
CNKI 构建 了 学 术 论文 中 定义 .数字 和 图 表 等 类 型 知识 
元 的 搜索 系统 。 

可 见 ,知识 元 理论 中 的 知识 元 概念 始 于 知识 组 织 
对 象 粒度 的 细 化 ,这 与 本 研究 细 粒 度 聚 合 本 体 中 包含 
的 聚合 单元 概念 类 似 却 又 有 所 不 同 。 类 似 的 是 组 织 对 
象 粒度 从 文本 深入 到 文本 内 容 , 不 同 的 是 知识 元 理论 
对 于 知识 元 类 型 (如 定义 数值 .图 表 等 ) 的 划分 着 眼 
于 知识 的 组 织 与 利用 ,由 在 构建 基于 知识 实例 及 其 关 
系 的 知识 库 ;而 本 研究 中 对 于 聚合 单元 类 型 的 划分 则 
着 眼 于 有 用 信息 片段 的 组 织 与 利用 , 旨 在 构建 信息 片 
段 之 间 及 信息 片段 与 用 户 任务 情景 之 间 的 关联 关系 。 
因而 ,知识 元 定义 ,抽取 、 本 体 构建 和 组 织 的 相关 研究 ， 
可 为 聚合 单元 的 抽取 和 组 织 提供 众多 的 方法 基础 ,也 
为 聚合 单元 本 体 构 建 提供 参考 。 
2.1.3 向 课程 的 知识 元 组 织 研究 ”此 方面 研究 主 
要 集中 在 教育 技术 领域 ,该 领域 中 知识 元 常 被 称 为 “ 知 
识 点 ”, 即 由 不 同 的 知识 点 根据 其 相关 性 组 成 知识 体 
系 。 知 识 点 是 教学 活动 过 程 中 传递 教学 信息 的 基本 单 
元 ,包括 理论 原理、 概念 .定义 .范例 和 结论 等 。 知 识 
点 可 进一步 分 解 ,在 结构 上 不 可 分 割 的 知识 点 称 为 原 
子 知 识 点 。 相 关 的 一 组 知识 点 集成 为 知识 单元 。 知 识 
点 划分 的 基本 原则 是 保证 知识 内 容 的 局 部 完整 性 ,而 
其 大 小 可 随 需 要 而 定 , 可 能 相差 很 悬殊 。 例 如 ,一 章 可 
划 为 一 个 大 的 知识 点 ,其 中 一 节 的 内 容 又 可 细 划 为 较 
小 的 知识 点 ,一 节 中 的 定义 .定理 等 还 可 以 划 为 更 小 的 
知识 点 。 有 学 者 以 教育 技术 学 科 领 域 的 知识 分 类 体系 
为 基础 构建 以 知识 元 为 单位 的 教育 技术 学 科 资 源 
Vg" 。 此 外 ,有 学 者 在 知识 元 理论 的 基础 上 提出 面向 
知识 组 织 与 共享 的 教育 资源 知识 元 描述 模型 ,探索 知 
识 摘 要 和 知识 融合 的 相关 方法 和 技术 "等 。 

教育 学 领域 知识 元 研究 构建 的 知识 体系 实际 上 以 
课程 知识 组 织 与 教育 为 主要 目标 ,而 并 非 面 向 资源 的 
组 织 , 因 此 其 知识 元 实例 是 真正 的 知识 本 身 ,而 非 这 个 
知识 概念 对 应 的 资源 。 然 而 ,关于 知识 元 本 体 构 建 的 
方法 和 技术 ,可 以 为 基于 聚合 单元 知识 体系 的 本 体 概 
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念 与 关系 构建 提供 参考 。 

2.2 体裁 结构 规则 及 其 知识 体系 研究 
体裁 按照 其 交际 目标 而 呈现 一 定 的 形式 特征 和 结 

构 规则 。 虽 然 大 部 分 关于 体裁 理论 的 研究 都 采用 典型 

体裁 ,如 科学 论文 .新 闻 或 短篇 小 说 作为 研究 案例 ,但 


内 容 结构 的 认 知 ,从 而 为 基于 体裁 的 理解 与 文 内 导航 
提供 了 依据 ” 。A. Dillon 及 其 同事 还 从 用 户 认 知 的 
角度 围绕 语 篇 的 逻辑 结构 和 语义 结构 对 用 户 迷 航 问 题 
和 导航 需求 进行 了 系列 研究 UV L. Zhang 构建 了 
心理 学 期 刊 论文 的 功能 单元 分 类 体系 ,识别 出 期 刊 文 


现在 普遍 认为 体裁 结构 存在 于 所 有 交流 网 络 中 ,而 大 
部 分 专业 的 交流 通常 无 需 依靠 外 部 联系 ,而 是 依赖 于 
体裁 结构 来 完成 其 共同 的 工作 5 。 关 于 体裁 结构 规 
则 的 研究 可 分 为 语言 学 领域 对 Swales 模型 的 探索 和 发 
展 、 图 书 情报 领域 对 于 体裁 结构 的 利用 与 探索 这 两 方 
面 进行 总 结 。 
2.2.1 语言 学 领域 对 Swales 模型 的 探索 和 发 展 体 
裁 结构 研究 代表 性 理论 可 包括 J M. Swales 的 学 术 论 
将 语 轮 - 语 步 "分 析 模 型 。 该 模型 在 研究 论文 体裁 
所 综 有 的 介绍 -方法 -结果 - 讨论 的 构成 基础 上 , 按 
照 狮 究 论 文 的 目标 进一步 对 “介绍 "部 分 的 内 容 进行 
VE - 语 步 分 析 , 从 而 将 研究 论文 划分 成 由 构成 (com- 
ponent) — ifie (move) — 语 步 (step ) 不 同 粒度 层级 组 
成 的 信息 单元 。 
OHE M. Swales 的 初始 模型 的 基础 上 ,众多 学 者 将 
工分 析 理 论 和 方法 用 于 自然 科学 .生物 医学 ,社会 科 
党 四 "野生 生物 行为 研究 和 生态 保护 领域 等 进行 
FEX, Swales 模型 还 被 拓展 至 研究 论文 的 其 他 构成 音 
元 带 行 研究 , 如 对 于 摘要 的 研究 "5 、 对 于 方法 的 研 
PE ,对 于 结果 的 研究 P ,对 讨论 的 研究 "和 对 所 有 
FIJO EE 77. BA. Lewin 等 对 社会 科学 领域 语 
料 的 导言 和 讨论 部 分 的 语 轮 和 语 步 进行 了 全 面 研 
AA ,检验 和 丰富 了 研究 论文 的 体裁 结构 知识 体系 。 
此 外 ,国内 学 者 也 对 语 篇 的 体裁 结构 进行 了 研究 ， 
如 : 赵 福利 参考 Bhatja 的 语 轮 模式 ,研究 电视 新 闻 导 言 
的 语 轮 结构 ; 葛 冬 梅 和 杨 瑞 英 参考 Bhatja 的 语 轮 模 
式 ,对 学 术 论 文 的 摘要 进行 研究 55 ; 催 艳 婚 和 王 同 顺 
参考 Swales 模型 对 英语 学 术 讲座 的 结构 进行 研究 ; 
杨 瑞 英 参考 Swales 模型 对 英语 语言 功能 学 的 学 术 论文 
各 构成 进行 语 轮 和 语 步 分 析 , 并 提出 了 理论 研究 类 学 
术 论文 的 构成 . 语 轮 和 语 步 1。 
2.2.2 图 书 情报 领域 对 于 体裁 结构 的 利用 与 探索 
自从 上 世纪 90 年 代 末 数 字 图 书馆 项 目 出 现 以 来 ,数字 
文档 的 解构 与 重组 .数字 资源 信息 单元 的 识别 与 利用 
问题 开始 受到 学 界 的 关注 。 这 些 关于 数字 文档 划 


章 组 成 (例如 :介绍 方法、 结果 和 讨论 ) 中 的 最 小 信息 
单元 ,并 对 阅读 信息 获取 的 效率 和 效用 进行 了 检 
457, C-C. Ma fI SJ. Cao 构建 了 图 书 情报 学 领域 跨 
体裁 的 聚合 单元 分 类 体系 。 

从 已 有 研究 可 以 看 到 ,面向 用 户 认 知 与 需求 的 体 
裁 结构 划分 ,对 于 提高 信息 利用 的 效率 与 效用 有 重要 
作用 ,可 为 细 粒 度 聚 合 提供 理论 支持 。 更 重要 的 是 ,无 
论 是 语言 学 领域 还 是 图 书 情报 学 领域 对 于 体裁 结构 的 
划分 与 利用 研究 ,都 形成 了 一 系列 关于 体裁 结构 下 语 
言 功 能 单元 的 知识 体系 。 然 而 ,目前 关于 信息 单元 利 
用 的 研究 尚 处 于 探索 阶段 ,未 进一步 从 知识 组 织 的 角 
度 进行 考量 ,更 未 构建 相应 的 知识 组 织 系统 以 支持 实 
际 的 应 用 。 

2.3 本体 构建 的 理论 与 方法 

本 体 研 究 既 有 的 理论 与 方法 ,可 为 细 粒 度 聚合 本 
体 构建 提供 直接 的 理论 与 方法 基础 。 以 下 从 本 体 的 类 
型 ,构建 原则 与 方法 .构建 工具 .评估 方法 等 方面 进行 
梳理 : 
2.3.1 本 体 是 共享 概念 模型 明确 的 形式 化 规范 说 明 

目前 已 有 大 量 关 于 本 体 的 研究 ,特别 是 国外 ,众多 的 
研究 组 织 和 机 构 根 据 各 自 需 求 建立 了 多 类 型 的 本 体 。 
按照 应 用 范围 和 层次 进行 划分 ,本 体 可 分 为 通用 本 体 、 
领域 本 体 和 应 用 本 体 。 通 用 本 体 不 针对 具体 的 领域 知 
识 , 可 进行 跨 领域 范围 的 复 用 ;领域 本 体 则 表达 特定 学 
科 领 域 的 知识 体系 ;应 用 本 体 是 为 特定 应 用 而 创建 的 
本 体 知识 库 , 可 包括 跨 学 科 领 域 的 知识 。 其 中 ,通用 本 
体 和 领域 本 体 是 应 用 本 体 的 上 层 本 体 “。 

更 具体 地 , R. Mizoguchi 等 提出 按照 本 体 的 应 用 
目的 进行 划分 ,分 为 领域 本 体 、 顶 级 (通用 ) 本 体 和 任 
务 本 体 3 种 ,其 中 任务 本 体 是 指 通过 顶层 概念 表达 具 
体 任务 专用 的 概念 类 、 属 性 和 关系 , 它 描述 特定 任务 或 
行为 中 的 概念 体系 ,提供 可 解答 与 某 具 体 任务 或 行为 
A XE IRIS ETE SU N. Guarino 提出 按照 本 体 概念 
的 具体 程度 和 本 体 概念 相对 于 领域 的 独立 性 进行 类 型 
划分 ,其 中 ,按照 本 体 概念 的 详细 程度 分 为 较 详 细 的 参 


分 与 利用 的 研究 ,大 都 以 体裁 结构 理论 为 基础 ,结合 用 
户 的 信息 获取 任务 进行 划分 和 关联 分 析 的 。 
如 A. Dillon 检验 了 人 们 对 于 网 络 新 闻 这 一 体裁 


£k 体 ( Reference ontology ) 和 较 简 略 的 共享 本 体 
(Share ontology ) ,按照 本 体 概念 对 学 科 领 域 的 独立 性 
可 划分 为 4 类 :顶级 本 体 (Top-level Ontologies) 、 领 域 本 
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/&( Domain Ontologies ) .任务 本 体 (Task Ontologies ) 和 
应 用 本 体 (Application Ontologies) ? 9? 。 此 外 ,有 学 者 
按照 本 体 应 用 将 其 划分 为 领域 本 体 、 通 用 本 体 (常识 本 
本 ) .知识 本 体 、 语 言 学 本 体 和 任务 本 体 等 5 种 类 
p 

2.3.2 关于 本 体 构建 的 理论 和 方法 较为 成 熟 ” 其 中 ， 
较为 典型 的 本 体 构建 原则 是 T，Gruber 提出 的 本 体 构 
建 五 原则 , 即 清晰 度 .一 致 性 可 扩展 性 .中 立 性 和 最 小 
ARMIGER UT 。 而 较为 典型 的 构建 方法 包括 :骨架 法 、 
IDEFS 法 .七 步 法 五 步 循 环 法 .METHONTOLOGY 法 、 
TOVE 法 ,KACTUS 法 SENSUS 法 和 循环 获取 法 等 “*]。 
2.3.3 Protégé 是 本 体 构建 的 重要 工具 Protégé 具有 
可 视 的 用 户 界 面 ,支持 DAML + OIL fll OWL 语言 ,可 
实现 模块 化 设计 "” , 且 可 利用 本 体 描述 语言 进行 系统 
外 前 修改 。 由 于 Protégé 具有 开源 代码 .有 中 文 版 本 等 
诸 甸 优点 ,在 国内 被 广泛 采用 。 

4 本体 评估 的 方法 较为 多 样 。 包 括 用 户 评价 法 、 
应 十 评价 法 .语料库 评价 法 .专家 评价 法 和 复合 指标 评 
价 法 、 黄 金 标准 评价 法 等 。 这 些 评价 方法 都 有 其 适用 
怪 夭 可 操作 性 ,但 有 研究 指出 这 些 本 体 评价 的 方法 本 
综 上 存在 一 定 的 局 限 性 , 跨 领域 的 适用 性 并 不 理想 , 难 
DER 规模 应 用 。 当 前 ,构建 指标 体系 是 最 为 常见 的 评 
价 兰 法 中 。 此 外 ,也 有 学 者 指出 ,无 论 在 国内 还 是 国 
:未 体 评价 方法 的 研究 尚 处 于 探索 阶段 ,缺乏 被 广泛 
庆生 的 评价 理论 体系 和 评价 方法 体系 ,评价 集中 于 概 
Ax iE .关系 等 方面 , 仍 未 创建 出 综合 的 本 体 评价 体 
系 5 耻 未 出 现 权威 的 评价 标准 。 


3” 细 粒度 聚合 本 体 的 构建 
3.1 细 粒 度 聚合 本 体 的 理论 框架 


3.1.1 细 粒 度 聚 合 本 体 概 念 的 基本 类 型 ”本 体 构建 
的 过 程 一 般 包 含 两 个 阶段 ,第 一 阶段 目标 是 确定 本 体 
的 概念 集合 ,建立 核心 术语 集合 ;第 二 阶段 目标 是 确定 
概念 之 间 的 关系 。 根 据 网 络 资源 细 粒 度 聚 合 目标 和 框 
架 , 本 文 将 细 粒 度 聚 合 本 体 的 基本 概念 定义 为 4 类 , 即 
网 络 文档 .聚合 单元 .学 科 领 域 概念 和 任务 情景 ,如 图 
1 所 示 : 


网 络 文档 聚合 单元 学 科 领 域 概念 任务 情景 | 


1 细 粒 度 聚 合 本 体 的 4 类 基本 概念 
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在 此 基础 上 , 细 粒 度 聚 合 本 体 构 建 的 思路 是 :GD 通 
过 聚合 单元 知识 体系 确定 聚合 单元 概念 集合 ;通过 
学 科 领 域 知识 组 织 系统 构建 的 方法 确定 学 科 领 域 概念 
集合 ;G@) 通 过 已 有 研究 确定 任务 情景 概念 集合 。 由 于 
学 科 领 域 本 体 构建 已 有 大 量 研 究 , 而 任务 情景 本 体 又 
较为 简单 ,本 文 着 重 探索 基于 聚合 单元 知识 体系 的 本 
体 构 建 方法 。 
3.1.2. 细 粒 度 聚合 本 体 的 粒度 特征 ”从 知识 组 织 的 
已 有 理论 可 知 ,知识 组 织 体 系 细致 程度 对 网 络 资源 检 
索 和 利用 效率 会 产生 影响 ,知识 粒度 越 细 则 描述 的 准 
确 性 越 高 ,信息 片段 越 小 则 检索 的 相关 性 越 高 。 因 此 ， 
本 文 按照 网 络 资源 细 粒 度 聚 合 本 体 框架 中 提供 语义 知 
识 的 两 个 重要 知识 库 一 一 学 科 领 域 知识 体系 和 聚合 单 
元 知识 体系 ,将 两 组 网 络 资源 知识 组 织 系统 中 粒度 特 
征 分 为 学 科 领 域 概念 粒度 和 受 控 单元 粒度 进行 定义 ， 


如 表 1 所 示 : 
表 1 网 络 资源 知识 组 织 系统 粒度 层级 
层级 学 科 领 域 概念 粒度 层级 聚合 单元 粒度 
KI 主要 概念 Cl 体裁 类 型 
K2 子 概念 C2 构成 单元 
Kn oo C3 语 轮 - 语 步 单元 


学 科 领 域 知识 体系 与 聚合 单元 知识 体系 粒度 的 明 
晰 ,有 利于 从 领域 知识 的 准确 性 和 网 络 学 术 文档 的 准 
确 与 相关 性 两 方面 增加 网 络 资源 细 粒 度 聚 合 的 效率 与 
效用 。 
3.1.3” 细 粒度 聚合 本 体 概念 的 定义 ”对 于 细 粒 度 聚 
合 本 体 而 言 , 由 于 前 期 研究 已 形成 聚合 单元 知识 体 
系 “ ,已 有 研究 也 对 任务 和 任务 与 信息 单元 的 关联 性 
进行 调查 “'” ,因此 ,其 核心 术语 及 其 属性 较 容易 确 
定 , 均 可 定性 地 实现 形式 化 说 明 。 

本 文 将 学 科 领 域 概念 C 定义 为 一 个 四 元 组 : 

C= |C, Pe, Re, Syne} 
其 中 ,Cu 代表 学 科 领 域 概念 ;Pe 代表 该 学 科 领 域 
概念 的 一 般 属 性 ;Re 表示 学 科 和 领域 概念 关系 集合 ; 
Syn, 表示 学 科 领 域 概念 Co 的 同义词 集合 。 

本 文 将 任务 情景 了 定义 为 一 个 三 元 组 : 

T-2|T,,C,, P,,R,] 
Hep T, 代表 任务 类 型 的 概念 ;C1 代表 该 任务 主 
题 对 应 的 学 科 领 域 概念 ;P* 代表 该 任务 的 一 般 属性 ; 
Re 表示 任务 概念 关系 集合 。 

本 文 将 聚合 单元 概念 A 的 完整 概念 定义 为 一 个 五 
元 组 : 

AZ|A,,C,, U( A,, T), R,, Syn] 
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其 中 ,Au 代表 聚合 单元 的 概念 ;C， 代表 该 聚合 单 
元 主题 对 应 的 学 科 领 域 概念 ;U(Au ,Tu ) 表示 聚合 单元 
的 任务 情景 相关 性 ,该 属性 由 任务 的 类 型 Tu 及 其 与 该 
聚合 单元 A, 的 相关 性 程度 决定 。 例 如 :聚合 单元 "网 
络 百 科 ” 具有 百科 类 体裁 的 属性 ,属于 体裁 层级 ,其 语 
义 功 能 是 介绍 相应 概念 各 方面 知识 ,在 "学习 背 景 " 任 
务 下 具有 较 高 的 感知 可 用 性 。U 为 实例 下 感知 有 用 性 
的 具体 数值 ;R, 表示 关系 集合 ;Syn。 表示 概念 Au 的 同 
义 词 集 合 。 

本 文 将 网 络 文档 概念 D 的 完整 概念 定义 为 一 个 九 
元 组 : 


D = iD, C, , Tit, Cont , Auth , Inst, S, C, Time | 

其 中 ,De 代表 网 络 文档 的 概念 ;Co 代表 该 聚合 单 
元 直 题 对 应 的 学 科 领 域 概念 ;Tit 代表 文档 题名 ; Cont 
IEN A, Auth 代表 文档 作者 ; Inst 代表 文档 机 
HS 代表 文档 来 源 ,G 代表 文档 体裁 , Time 代表 出 版 


Y 


N 


3.2. 细 粒 度 聚 合 本 体 的 构建 与 形式 化 

本 文 以 前 期 研究 构建 的 图 书 情报 领域 语料库 中 

“引文 分 析 ” 主题 的 81 种 网 络 文档 为 数据 来 源 ” , 通 
过 实证 研究 的 方法 建立 细 粒 度 聚 合 本 体 的 4 类 概念 
合 、 属 性 ,关系 及 相应 的 实例 ,构建 本 体 并 实现 形式 化 。 
实验 语 料 所 包含 的 体裁 包括 开放 获取 研究 论文 、 在 线 
题 录 、 网 络 百 科 词 条 和 学 术 博 文 4 种 类 型 。 
3.2.1 细 粒 度 聚 合 本 体 概念 体系 ”按照 细 粒 度 聚 合 
本 体 概念 的 基本 类 型 ,其 概念 体系 包括 :聚合 单元 概念 
体系 .学科 领域 概念 体系 .任务 概念 和 文档 概念 4 个 部 
分 。 

(1) 聚 合 单元 概念 体系 。 按 照 聚 合 单元 知识 体系 
构建 聚合 单元 的 概念 集合 及 概念 间 关 系 ,采取 自 上 
而 下 的 顺序 进一步 确定 聚合 单元 本 体 的 概念 及 其 属 
性 :根据 聚合 单元 分 类 体系 确定 不 同 层 级 的 聚合 单元 
概念 ,如 研究 论文 .导言 .介绍 论题 背景 等 不 同 层级 的 
概念 ,如 表 2 所 示 : 


表 2 聚合 单元 知识 体系 


总 结 结果 ,结论 或 理论 观点 
讨论 结果 

评价 结果 

后 续 研 究 建议 


一 级 类 二 级 类 三 级 类 一 级 类 二 级 类 三 级 类 
(0 论文 /在 线 题 录 摘要 概述 论题 网 络 百 科 词 条 词 条 摘要 词 条 概述 
eo 概述 方法 词 条 基本 信息 点 
N 概述 结果 词 条 简介 定性 叙述 
e 概述 结论 介绍 历史 沿革 
CN oA 论 广 导言 建立 一 个 领域 论题 介绍 基本 事实 
~ 回顾 已 有 研究 叙述 生平 事迹 
评述 已 有 研究 知识 要 点 参阅 资料 
x< 呈现 当前 研究 关键 信息 点 
© 厘清 定义 人 物 影响 介绍 主要 成 就 
c 理论 背景 提出 理论 或 概念 列举 所 获 荣誉 
€ 评述 理论 列举 主要 作品 或 观点 
O 将 理论 与 当前 研究 联系 起 来 介绍 相关 评 
论证 介绍 论题 背景 博客 文章 引入 建立 交流 性 论题 
是 出 作者 立场 插入 题 外 交流 性 话题 
论述 理论 立场 介绍 论题 相关 客观 信息 
作出 合理 论断 记载 论题 相关 事件 
方法 /数据 介绍 方法 背景 观点 是 出 博 主观 点 和 立场 
撞 述 数据 论述 博 主观 点 和 立场 
介绍 分 析 方 法 与 程序 总 结 博 主 观点 和 立场 
厘清 定义 来 源 和 链接 列 出 相关 链接 
结果 下 文 提要 列 出 资源 来 源 
介绍 结果 背景 交互 评论 提问 与 回复 
描述 所 开展 的 分 析 评论 与 回复 
证 明 方法 或 程序 合理 性 
呈现 结果 
评论 结果 
讨论 /结论 总 结 研究 背景 和 研究 概况 
下 文 提要 
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(2) 学 科 领 域 本 体 构 建 。 学 科 领 域 资源 本 体 构建 
的 研究 已 有 较 长 历史 ,具有 较为 成 熟 的 理论 和 方法 基 
础 。 为 配合 探索 细 粒 度 聚 合 本 体 的 构建 方法 ,本 文采 
用 基于 词典 的 机 器 辅助 的 方式 构建 主题 概念 知识 体 
系 ,具体 过 程 是 : 以 百度 百科 中 “引文 分 析 ” 词 条 中 关 
于 引文 分 析 的 知识 体系 作为 “引文 分 析 ” 语 料 库 知识 
体系 的 基础 ,采用 武汉 大 学 开发 的 ROST CM 软件 对 语 
料 库 文本 进行 分 词 和 词 频 计算 ,获取 反映 学 科 领 域 特 
征 的 高 频 关键 词 概念 ,经 过 课题 组 成 员 逐 一 讨论 ,将 全 
部 有 意义 的 新 词 添加 到 引文 分 析 知识 体系 进行 完善 ， 
从 而 采用 “ 自 上 往 下 ?法 构建 “引文 分 析 ” 本 体 。 最 终 
构建 包括 6 个 层级 和 100 个 概念 的 学 科 领 域 概念 体 
系 。 
本 (3) 网 络 文档 本 体 与 聚合 单元 本 体 。 网 络 文档 本 
体 督 在 构建 关于 网 络 文档 各 维度 信息 单元 的 本 体 概念 
必 丰 概念 关系 ,从 而 与 聚合 单元 概念 体系 配合 ,支持 网 
档 细 粒 度 聚 合 。 本 文 在 参考 朱 嘉 贤 等 关于 Web 
流 本 体 和 艺 均 平等 关于 馆藏 资源 语义 本 体 研究 的 基 
MNES O ,构建 网 络 本 体 文档 的 主要 概念 。 因 而 , 文 
档 究 体 包括 体裁 .内 容 、 创 作者 .单位 机 构 .来源 .题名 
等 慨 念 , 见 图 2。 
〇 任务 情景 概念 集 定义 关于 任务 情景 的 概念 ,从 而 
将 阐 建 任务 与 聚合 单元 概念 之 间 的 关联 关系 提供 基 
础 5 波 持 网 络 文档 细 粒 度 聚 合 。 本 文 在 L，Zhang fü L. 
Feld 等 关于 任务 本 体 定义 的 基础 上 cs. 轨 ,构建 任务 
本 梨 的 主要 概念 , 见 图 3。 
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图 3 细 粒 度 聚 合 本 体 任务 情景 本 体 的 概念 


3.2.2 细 粒 度 聚 合 本 体 属性 及 关系 ”在 前 一 阶段 析 
出 各 类 细 粒 度 聚 合 各 类 本 体 概念 集合 的 基础 上 ,第 二 
阶段 将 明晰 本 体 概 念 的 主要 属性 ,可 包括 :聚合 单元 的 
感知 有 用 性 ,聚合 单元 特有 的 语言 功能 形成 的 聚合 单 
元 类 与 类 之 间 实体 与 实体 之 间 的 语义 关系 ,网 络 文档 
本 体 概 念 之 间 存 在 的 关系 ,以 及 主题 与 聚合 单元 本 体 
和 任务 本 体 之 间 的 关系 。 因 此 , 细 粒 度 聚 合 本 体 主要 
包含 11 种 主要 属性 ,如 表 3 所 示 : 


T 表 3， 细 粒度 本 体 概念 属性 的 定义 


类 属性 


聚合 单元 任务 下 的 感知 有 用 性 (数值 属性 ) 
聚合 单元 语义 推进 关系 / 逆 关 系 
聚合 单元 属于 /包含 
聚合 单元 /任务 情景 tie 
学 科 领 域 概念 是 ”的 学 科 领 域 概念 
FE 者 来 自 0 机 构 
FE 者 撰写 _ Wi 
机 构 包公 作者 
内 容 H 撰写 
内 容 Ee 
内 容 创作 时 间 是 _ 0. 


是 指 特定 任务 下 聚合 单元 的 感知 有 用 性 


是 指 特定 交际 目标 下 , 同 组 内 不 同 聚 合 单元 语义 功能 之 间 所 形成 的 语义 推进 关系 
是 指 下 级 聚合 单元 与 其 所 属 的 上 级 聚合 单元 之 间 的 属于 关系 及 其 逆 关 系 


是 聚合 单元 或 任务 情景 所 包含 的 主题 是 … 
是 概念 的 学 科 领 域 概念 
是 指 作者 来 自 … 机 构 
是 指 作者 撰写 了 …… . 网 络 文档 

是 指 某 机 构 包 含 … 作者 

是 指 网 络 文档 由 …. 撰写 
是 指 该 网 络 文档 的 内 容 包 含 … 主 题 
是 指 该 网 络 文档 内 容 的 创作 时 间 是 … 


依据 细 粒 度 本 体 类 与 属性 之 间 的 关系 ,可 以 进行 
如 下 推理 : 
(1) 聚 合 单元 的 有 用 性 。 如 果 某 任务 情景 下 某 聚 
合 单元 “感知 可 用 性 ”得 分 高 于 阔 值 , 则 该 聚合 单元 在 
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该 任务 情景 下 具有 较 高 的 有 用 性。 

(2) 聚合 单元 的 任务 相关 关系 。 如 果 特 定 任务 情 
景 下 , 某 些 聚合 单元 的 感知 可 用 性 得 分 均 高 于 阔 值 , 则 
这 些 聚 合 单元 存在 任务 相关 性 。 
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络 学 术 文档 细 粒 度 聚合 本 体 构 建 研究 [J]. 图 书 情报 工作 ,2019 ,63(24) :107 - 118. 


(3) 聚合 单元 的 主题 。 下 级 聚合 单元 继承 上 级 聚 
合 单元 “学科 领域 概念 是 … ”的 属性 。 如 果 上 级 聚合 
元 的 学 科 领 域 概念 是 … 则 下 级 聚合 单元 的 学 科 领 域 
dee . 上 下 级 聚合 单元 之 间 存 在 等 价 的 逆 关 
系 。 

(4) 聚 合 单元 的 文档 本 体 相 关 属性 。 各 层级 聚合 
单元 均 获 得 文档 本 体 相 关 的 属性 如 果 文 档 的 作者 /机 
构 /来 源 / 题 名 /体裁 是 … 则 该 聚合 单元 的 作者 /机 构 / 
来 源 / 题 名 /体裁 是 … 文 档 本 体 与 聚合 单元 之 间 存 在 等 
价 的 逆 关 系 。 

根据 表 2 及 基于 类 属性 的 语义 推理 形式 化 描述 ， 
本 文 对 这 些 语义 关系 类 型 进行 了 明确 形式 化 说 明 , 即 
了 细 粒 度 聚 合 本 体 主要 包含 的 5 类 主 


ind 


> 


自 顶 向 下 地 确定 
要 关系 : 


系 、 实 例 对 类 的 继承 关系 、 类 与 属性 之 间 的 关系 等 
JÉNIER. 来 合 单元 本 体 中 概念 之 间 的 语义 关系 比 
较 届 确 ,可 依据 聚合 单元 知识 体系 中 上 下 位 聚合 单元 
人 时 的 关系 确立 ;对 于 继承 关系 的 属性 ,可 按照 关系 的 

性质 等 方面 进行 定义 ;类 所 包含 的 实例 之 间 的 语 
,可 通过 所 属 类 之 间 的 关系 获得 。 

O 〇 2) 推进 关系 及 其 逆 关 系 。 聚合 单元 本 体 中 相同 
光 淡 的 子 类 及 其 实例 之 间 的 语义 推进 关系 及 其 道 关 
ST 依据 聚合 单元 知识 体系 中 上 下 位 聚合 单元 之 间 
的 关系 确立 。 

(3) 任务 相关 性 。 由 于 特定 任务 类 型 下 特定 聚合 
单元 具有 较 高 的 感知 可 用 性 ,因而 相同 层级 或 不 同 层 
级 吉 合 单元 之 间 形 成 基于 任务 情景 的 关联 关系 ,除了 
可 以 进行 定性 说 明 外 ,还 可 以 通过 聚合 单元 感知 有 用 
性 的 数值 关系 进行 计算 并 进行 定量 的 形式 化 说 明 。 

(4) 学 科 领 域 概念 的 语义 关系 。 由 学 科 领 域 概念 
之 间 形 成 的 语义 关联 关系 ;相同 层级 或 不 同 层级 类 所 
包含 的 实例 之 间 的 语义 相关 度 则 可 在 领域 本 体 的 概念 
相关 度 的 基础 上 结合 本 类 聚合 单元 的 情景 关联 属性 进 
行 加 权 计 算 。 

(5) 网 络 文档 概念 中 的 关系 。 网 络 文档 及 其 作 
者 .机 构 等 之 间 的 关联 关系 ,可 从 网 络 文档 元 数据 中 直 
接 获取 ,也 可 从 机 构 网 站 等 公开 信息 源 获取 和 整合 。 
3.2.3” 细 粒度 聚合 本 体 的 实例 ”以 “引文 分 析 ” 语 料 
库 语 料 作为 细 粒 度 聚 合 本 体 实例 的 来 源 。 按 照 细 粒度 
聚合 本 体 对 语料库 中 网 络 文档 的 相关 实例 信息 进行 提 
取 与 统计 ,得 出 本 体 类 的 实例 数量 分 布 如 表 4 和 表 5 
所 示 : 


表 4 引文 分 析 聚 合 单元 本 体 类 的 实例 统计 


类 型 体裁 单元 构成 单元 语言 功能 单元 
OA 期 刊 论文 28 136 805 
在 线 文摘 18 30 21 
百科 词 条 13 36 123 
学 术 博 文 22 52 298 
合计 81 254 1 247 


类 型 数量 构成 单元 数量 

学 科 领 域 概念 100 机 构 50 
体裁 4 来 源 38 
内 容 81 题名 81 
作者 89 


其 中 , 表 4 是 关于 聚合 单元 知识 体系 中 本 体 类 的 
实例 统计 , 表 5 是 文档 本 体 和 学 科 和 领域 概念 本 体 类 的 
实例 统计 。 从 表 4 和 表 5 可 知 ,聚合 单元 本 体 实 例 来 
源 于 4 类 体裁 的 81 个 实例 ,体裁 单元 下 所 包含 的 构成 
单元 共计 254 个 ,构成 单元 所 包含 的 语言 功能 单元 共 
计 1247 个 。 学 科 领 域 概念 本 体 中 包括 实例 100 个 , 文 
档 本 体 包含 作者 89 个 机构 50 个 ,来 源 38 个 。 

对 于 细 粒 度 聚 合 本 体 的 类 而 言 , 其 实例 的 属性 可 
按照 本 体 中 该 类 的 属性 进行 定义 。 在 此 着 重 探索 聚合 
单元 实例 基于 计算 而 获得 的 数值 属性 - 聚合 单元 实例 
的 感知 有 用 性 。 在 聚合 单元 属性 定义 阶段 ,感知 可 用 
性 作为 聚合 单元 类 的 数值 属性 , 受 聚 合 单元 类 型 及 用 
户 任 务 情景 的 影响 ,是 聚合 单元 任务 相关 性 的 提示 器 。 
3.2.4 基于 Protégé 的 细 粒 度 聚 合 本 体形 式 化 在 明 
晰 细 粒 度 聚 合 本 体 概念 及 其 属性 的 基础 上 ,对 其 进行 
形式 化 说 明 , 从 而 形成 形式 化 的 本 体 。 以 “引文 分 析 ” 
数据 集 为 语 料 来 源 ,采用 本 体 编辑 和 可 视 化 工具 
Protégé 对 细 粒 度 聚 合 本 体 按照 OWL 语言 规范 添加 语 
义 标 记 ,进行 编码 .形式 化 ,从 而 建立 网 络 文档 细 粒 度 
聚合 本 体 , 其 全 貌 见 图 4。 

从 构成 本 体 的 大 类 来 看 , 细 粒 度 聚 合 本 体 包 含 聚 
合 单元 本 体 学科 领域 本 体 .网络 文 档 本 体 、 任 务 本 体 ， 
因此 ,按照 层级 结构 关系 查看 最 上 层 本 体 概念 ,可 得 到 
细 粒 度 聚 合 本 体 的 主体 构成 及 其 关系 , 见 图 5 

从 图 5 可 见 ,聚合 单元 本 体 是 细 粒 度 聚 合 本 体 的 
基础 ,为 资源 的 细 粒 度 聚 合 提供 层级 关系 .语义 关系 及 
任务 相关 关系 ,从 而 支持 基于 聚合 单元 间 关 系 的 网 络 
文档 细 粒 度 聚 合 和 可 视 化 的 导航 与 检索 方式 。 聚 合 单 
元 本 体 的 层级 概貌 如 图 6 所 示 : 
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从 图 6 可 见 , 聚 合 单元 属于 文档 本 体 中 内 容 属性 
的 一 部 分 ,包含 感知 可 用 性 的 属性 ,被 学 科 领 域 概念 描 
述 , 包 含 在 线 题 录 摘 要 .OA 论文 .学术 博 文 、 在 线 百 科 
词 条 等 类 型 的 网 络 文档 体裁 。 各 层级 聚合 单元 之 间 存 


LE 0E 14 
E» L gui. -Pa 


在 整体 与 部 分 关系 ,同一 层级 下 的 同 组 聚合 单元 之 间 
存在 推进 关系 及 其 逆 关 系 。 

基于 “引文 分 析 ” 网 络 文 档 语料库 的 资源 学 科 领 
域 本 体 的 概念 关系 层级 结构 如 图 7 所 示 : 


7 学科 领域 概念 本 体 的 层级 结构 概 瑶 ( 部 分 ) 


写 文 档 本 体 与 任务 本 体 及 其 与 学 科 领 域 和 聚合 单元 
2o 由 此 可 见 ,学 科 领 域 概念 是 文档 
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本 体 、 任 务 本 体 与 聚合 单元 本 体 的 属性 。 聚 合 单元 来 
源 于 文档 本 体 的 内 容 属 性 。 
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8 ”文档 本 体 与 任务 本 体 概貌 


4” 细 粒度 聚合 本 体 评估 与 讨论 
岳 丽 欣 和 刘 文 云 综合 国外 各 种 评价 指标 提出 完整 
性 、 清 晰 性 一 致 性 、 可 扩展 性 和 兼容 性 的 本 体 评 价 标 
WU ,本 文 围绕 这 几 个 标准 方面 对 细 粒 度 聚 合 本 体 进 
行 讨论 : 
4.1 完整 性 方面 
由 于 所 构建 的 细 粒 度 聚 合 本 体 源 于 实验 语 料 , 因 
而 可 较 大 程度 地 覆盖 语 料 涵盖 各 类 本 体 的 概念 及 其 关 
系 ,尤其 是 文档 本 体 的 窗 盖 程度 达到 100% 。 与 C-C. 
Ma 和 S-J. Cao 所 划分 的 聚合 单元 初始 分 类 体系 相 


E ,由 于 本 研究 提出 的 聚合 单元 本 体 并 未 采用 初始 
分 类 体系 中 包含 的 两 种 评分 较 低 的 语义 功能 单元 , 因 
此 聚合 单元 本 体 的 覆盖 程度 为 96. 5% 。 

然而 ,由 于 本 研究 提出 的 任务 本 体 概 念 来 源 于 工 . 
Zhang fil L. Freund 研究 提出 的 任务 类 型 ”” ,其 完整 
性 和 系统 性 与 Y. Li 人 研究 提出 的 任务 分 面 分 类 体系 相 
比 存在 不 足 , 因 此 后 续 研 究 可 以 参考 Y. Li 提出 的 任 
FRA ,从 更 多 的 分 面 和 类 型 构建 任务 与 聚合 单元 
之 间 的 关联 关系 ,建立 更 完整 的 任务 本 体 。 此 外 ,对 于 
图 情 领 域 更 多 体裁 类 型 的 网 络 文档 甚至 是 更 多 学 科 领 
域 的 网 络 文档 而 言 , 本 研究 提出 的 细 粒 度 聚 合 本 体 不 
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仅 需要 补充 和 完善 聚合 单元 的 类 型 和 关系 ,还 应 基于 
词典 或 基于 大 规模 语 料 构建 学 科 领 域 概念 体系 ,从 而 
确保 细 粒 度 聚 合 本 体 的 完整 性 。 
4.2 ”清晰 性 方面 

细 粒 度 聚 合 本 体 的 四 类 概念 均 可 按照 既 有 知识 体 
系 构建 成 层次 清晰 ,概念 边界 明确 .属性 和 关系 定义 明 
确 的 本 体 。 其 中 ,聚合 单元 知识 体系 按照 语言 功能 学 
中 的 体裁 结构 理论 构建 而 成 ”” ,因而 聚合 单元 在 概 
念 ,属性 和 关系 方面 都 具有 较为 明确 的 定义 ;任务 本 体 
ZWE L. Zhang fH L. Freund 所 采用 的 任务 定义 明晰 不 
同 任务 的 含义 与 属性 5e. ;文档 本 体 的 概念 更 被 普遍 
认 知 ;而 学 科 领 域 概念 则 在 自动 分 词 的 基础 上 ,参考 网 
络 百 科 词 条 并 通过 图 情 领 域 研究 人 员 共 同 确定 ,因而 
其 概念 含义 和 概念 间 关 系 具 有 明确 的 定义 ,从 而 保证 
组 粒度 聚合 本 体 的 清晰 性 。 
3) 一 致 性 方面 

由 于 作为 主体 的 聚合 单元 概念 的 类 、 属 性 和 关系 
的 玛 量 远 远 少 于 学 科 领 域 概念 体系 , 且 聚 合 单元 知识 


体 体系 通过 人 工 内 容 分 析 和 语 轮 - 语 步 分析 的 方式 产 
4E 妇 类 体系 的 构建 本 身 就 经 过 对 于 所 划分 的 聚合 单 
范 约 内 部 一 致 性 调查 " ,因而 并 不 存在 半自动 化 / 自 
到 8 均 建 过 程 产生 的 只 音 数据 ,一 到 性 程度 绞 高 。 
“可 扩展 性 方面 
本 研究 构建 的 细 粒 度 聚 合 本 体 虽 然 尚 处 于 方法 控 
规 天 工 构建 的 阶段 ,但 所 构建 的 基本 框架 ,尤其 是 基于 
体 城 结构 理论 的 聚合 单元 概念 体系 允许 维护 更 新 以 实 
现 本 体 的 进化 ,可 根据 实际 情况 采取 自动 化 或 半自动 
的 配 法 不 断 完善 层次 结构 和 语义 ,扩充 新 出 现 的 术语 、 
概念 以 及 关系 。 
4.5 ”兼容 性 方面 

细 粒 度 聚 合 本 体 包含 的 聚合 单元 知识 体系 、 任 务 
知识 体系 因 有 统一 而 明确 的 理论 基础 ,可 实现 多 个 学 
科 领 域 聚 合 单元 知识 体系 和 任务 体系 间 的 兼容 ;而 在 
百科 词 条 的 基础 上 结合 语 料 词 频 所 选 出 的 学 科 领 域 概 
念 使 得 概念 体系 具有 兼容 和 映射 的 基础 。 


本 研究 以 网 络 学 术 文档 细 粒 度 聚 合 本 体 构 建 为 目 
标 , 在 厘清 细 粒 度 聚 合 本 体 理论 框架 的 基础 上 建立 细 
粒度 聚合 本 体 并 进行 评估 。 首 次 提出 基于 聚合 单元 知 
识 体系 的 细 粒 度 聚 合 本 体 构 建 的 思路 和 方法 ,明晰 了 
细 粒 度 聚 合 本 体 概念 的 基本 类 型 ,厘清 聚合 单元 粒度 
与 学 科 概 念 粒度 的 关系 ,对 本 体 概念 进行 定义 ,从 而 构 
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建 了 细 粒 度 聚 合 本 体 构建 的 理论 框架 。 此 外 ,从 本 体 
概念 体系 、 属 性 及 关系 KAE 3 个 方面 明晰 了 本 体 
构建 的 思路 和 方法 。 

本 研究 构建 了 面向 图 书 情 报 学 领域 4 种 体裁 网 络 
文档 和 用 户 需求 的 细 粒 度 聚 合 本 体 。 然 而 ,由 于 多 种 
体裁 的 聚合 单元 划分 尚 处 于 探索 阶段 .划分 难度 较 大 、 
耗费 时 间 长 .又 尚未 开发 出 稳定 的 自动 分 类 方法 ,本 研 
究 采 用 以 人 工 划 分 方式 为 主 的 小 规模 语 料 样本 作为 数 
据 来 源 。 虽 然 语 料 数 量 较 小 为 细 粒 度 聚 合 本 体 的 应 用 
带 来 了 局 限 ,但 却 能 在 确保 概念 体系 准确 的 前 提 下 进 
行 构建 方法 和 本 体 效用 的 探索 性 研究 。 

此 次 的 实验 语 料 样 本 及 相应 本 体 将 应 用 到 细 粒 度 
聚合 原型 系统 中 ,进一步 对 各 类 聚合 单元 的 自动 分 类 、 
组 织 与 索引 交互 研究 等 方面 进行 系统 探索 ,以 期 更 全 
面 地 探索 和 把 握 聚 合 单元 的 效用 ,为 更 大 规模 的 自动 
化 .智能 化 探索 与 应 用 提供 基础 。 
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Study on the Construction of Fine-grained Aggregation Ontology for 
Academic Documents in the Internet Environment 
Ma Cuichang! Cao Shujin 
' Sun Yat-sen University Librariy, Guangzhou 510275 
? School of Information Management, Sun Yat-sen University, Guangzhou 510006 
: ^ Abstract. [ Purpose/significance | Fine-grained information aggregation has become the focus in the field of knowl- 


ed¥@) organization. This paper aims at exploring the construction of fine -grained aggregation ontology for academic docu- 


ments in the Internet environment. [ Method/ process | This study clarified the types, granularity characteristics and defi- 
nitions of the concepts of the fine-grained aggregation ontology. Then, with the corpus of “ citation analysis” documents in 
ilie field of library and information science in the Internet environment, the ontology was built through the concepts , attrib- 
ufes-and relationships. At last, the ontology was evaluated and discussed. [ Result/conclusion | This paper is among the 
fisto propose the idea of the fine — grained aggregated ontology construction by using the concept of aggregation unit. 
Tfüs)paper can inform the construction of knowledge organization systems for fine-grained organization, retrieval and navi- 
gation based on aggregation unit. 
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学 期 刊 抵制 学 术 不 端 联合 行动 计划 》( 简称 4 联合 行动 计划 》)( 见 : http://www. lis. ac. cn/CN/column/ item247.. sht- 
ml) 。 为 贯彻 和 落实 这 一 理念 ,本 刊 郑重 声明 ,即日 起 ,所 有 投稿 作者 须 承诺 :投稿 本 刊 的 论文 , 须 遵 守 以 上 《声明 》 
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端 行为 的 论文 实行 零 容 忍 ,并 采取 相应 的 惩戒 手段 。 
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